Meta新突破!跨模态生成告别噪声:流匹配实现任意模态无缝流转
在人工智能领域,跨模态生成(如文本到图像、图像到文本)一直是技术发展的前沿方向。现有方法如扩散模型(Diffusion Models)和流匹配(Flow Matching)虽取得了显著进展,但仍面临依赖噪声分布、复杂条件机制等挑战。
在人工智能领域,跨模态生成(如文本到图像、图像到文本)一直是技术发展的前沿方向。现有方法如扩散模型(Diffusion Models)和流匹配(Flow Matching)虽取得了显著进展,但仍面临依赖噪声分布、复杂条件机制等挑战。
据Telecomtalk 6月3日报道,印度科学技术部国务部长Jitendra Singh在印度人工智能峰会BharatGen Summit上发布了印度首个自主研发的多模态大型语言模型(LLM)Bharat Gen。
近日,首尔国立大学的研究团队Jaewoo Ahn、Heeseung Yun、Dayoon Ko和Gunhee Kim在arXiv上发表了一篇引人深思的研究论文,题为《Can LLMs Deceive CLIP? Benchmarking Adversarial
这一成绩不仅刷新了国内AI模型在国际多模态测评中的最高得分纪录,更超越谷歌、OpenAI等全球顶尖团队,与商汤科技SenseNova(80.4分)、上海AI LAB InternVL(79.1分)占据前10名的半壁江山,展现了中国在通用人工智能领域的突破性进展
行业主要上市公司:阿里巴巴 ( 09988.HK,BABA.US ) ; 百度 ( 09888.HK,BIDU.US ) ; 腾讯 ( 00700.HK, TCEHY ) ;科大讯飞 ( 002230.SZ ) ;万兴科技 ( 300624.SZ ) ;三六零
在数字化时代,视觉信息在知识传递和决策支持中的重要性日益凸显。然而,传统的检索增强型生成(RAG)方法在处理视觉丰富信息时面临着诸多挑战。一方面,传统的基于文本的方法无法处理视觉相关数据;另一方面,现有的视觉 RAG 方法受限于定义的固定流程,难以有效激活模型
在数字化时代,视觉信息在知识传递和决策支持中的重要性日益凸显。然而,传统的检索增强型生成(RAG)方法在处理视觉丰富信息时面临着诸多挑战。一方面,传统的基于文本的方法无法处理视觉相关数据;另一方面,现有的视觉 RAG 方法受限于定义的固定流程,难以有效激活模型
多模态大语言模型(MLLMs)近年来在许多视觉-语言任务上取得了令人瞩目的进展,但它们是否真正理解物体的方向性?这个看似简单的问题,实际上关系到机器人操作、自动驾驶和增强现实等众多实际应用。波士顿大学的研究团队于2025年5月发表了一项开创性研究,深入探究了这
在2025年5月发表于arXiv的一篇前沿研究论文中,来自哈佛大学、东北大学、中国科学院、武汉大学、麻省理工学院和北京大学的多位研究者联合提出了一个颠覆性观点:Token压缩不仅仅是提高AI模型运行效率的工具,更应该成为生成式AI模型设计的核心原则。这项由Zh
OpenAI 推出的 o3 推理模型,打破了传统文字思维链的边界 —— 多模态模型首次实现将图像直接融入推理过程。它不仅 “看图”,还能 “用图思考”,开启了视觉与文本推理深度融合的问题求解方式。例如,面对一张物理试卷图像,o3 能自动聚焦公式区域,分析变量关
智源研究院发布开源模型Video-XL-2,显著提升长视频理解能力。该模型在效果、处理长度与速度上全面优化,支持单卡处理万帧视频,编码2048帧仅需12秒。
在2025年5月发表于arXiv的一篇前沿研究论文中,来自哈佛大学、东北大学、中国科学院、武汉大学、麻省理工学院和北京大学的多位研究者联合提出了一个颠覆性观点:Token压缩不仅仅是提高AI模型运行效率的工具,更应该成为生成式AI模型设计的核心原则。这项由Zh
国家知识产权局信息显示,上海畅致文化传播有限公司申请一项名为“一种基于多模态AI的用户身份真实性验证方法及系统”的专利,公开号CN120068037A,申请日期为2024年12月。
随着 OpenAI 的 o1/o3 和 Deepseek-R1 等具备强大推理能力的大语言模型相继问世,学界普遍采用「监督微调 + 强化学习」的两阶段训练范式:先通过推理数据进行监督微调(SFT),再通过强化学习(RL)进一步提升性能。这种成功模式启发了研究人
五月底的arXiv服务器上新挂出一篇预印本,标题长得像科幻电影剧本——《无线自主AI与检索增强多模态语义感知》。但别被学术包装唬住,这玩意儿解决的是个接地气的难题:当一群AI特工挤在狭窄的无线频道里,怎么用眼神和手势说悄悄话。
现在各种家电产品都在主推AI功能的创新,比如从清晨自动调节的空调,到智能管理食材的冰箱,再到自主规划清洁路径的扫地机器人,这些创新正在重塑家庭生活的每一个细节。那么到底都有哪些创新功能呢,今天我们来盘点一下!
从技术积累、市场策略、生态布局等多维度综合分析,字节跳动的豆包更有可能成为中国 AI 领域的第一名,但阿里巴巴的通义千问凭借独特优势仍具备持续竞争力。以下是具体分析:
国家知识产权局信息显示,国网河北省电力有限公司信息通信分公司、北京邮电大学、国家电网有限公司申请一项名为“一种基于混合注意力机制的跨模态检索方法及系统”的专利,公开号CN120071358A,申请日期为2024年12月。
国家知识产权局信息显示,小哆智能科技(北京)有限公司申请一项名为“一种多模态操作指令的语义表示方法及系统”的专利,公开号CN120071046A,申请日期为2025年02月。
在现代科技高速发展的背景下,复杂的操作环境对智能材料的性能提出了更高要求。兼具多响应性、高稳定性与精确反馈能力的智能材料,已成为航空航天、生物医学、智能制造等众多领域的迫切需求。然而,传统智能材料在集成多种响应机制方面存在显著局限性,多模态传感器普遍面临信号交